DecisionTreeRegressor参数详解

2024-03-29 21:27| 来源: 网络整理| 查看: 265

criterion {“squared_error”, “friedman_mse”, “absolute_error”, “poisson”}, default=”squared_error”

衡量分割质量的函数。支持的标准有：

"squared_error "为平均平方误差，相当于方差减少作为特征选择标准，使用每个终端节点的平均值使L2损失最小；“friedman_mse”，使用平均平方误差与Friedman改进得分来寻找潜在的分裂；"absolute_error "为平均绝对误差，使用每个终端节点的中位数使L1损失最小；“poisson”，使用减少泊松偏差来寻找分裂。

splitter {“best”, “random”}, default=”best”

用来选择每个节点的分割的策略。支持的策略是 "best "以选择最佳分割，"random "以选择最佳随机分割。

max_depth int, default=None

树的最大深度。如果没有，那么节点将被展开，直到所有的叶子都是纯的，或者直到所有的叶子包含的样本少于min_samples_split。

min_samples_split int or float, default=2

分割一个内部节点所需的最小样本数。

如果是int，那么考虑min_samples_split作为最小数量。如果是float，那么min_samples_split是一个分数，ceil(min_samples_split * n_samples)是每次分割的最小样本数。

min_samples_leaf int or float, default=1

一个叶子节点所需的最小样本数。任何深度的分裂点只有在左右两个分支中至少留下min_samples_leaf训练样本时才会被考虑。这可能会产生平滑模型的效果，特别是在回归中。

如果是int，那么考虑min_samples_leaf作为最小的数字。如果是float，那么min_samples_leaf是一个分数，ceil(min_samples_leaf * n_samples)是每个节点的最小样本数。 0.18版中的修改：为分数增加了浮动值。

min_weight_fraction_leaf float, default=0.0

在一个叶子节点上所需的权重总和（所有输入样本）的最小加权部分。不提供sample_weight时，样本的权重相等。

max_features int, float or {“auto”, “sqrt”, “log2”}, default=None

寻找最佳分割时要考虑的特征数量。

如果是int，那么在每次分割时考虑max_features特征。如果是float，那么max_features是一个分数，每次分割时考虑max(1, int(max_features * n_features_in_))特征。如果是 “auto”，那么max_features=n_features。如果是 “sqrt”，那么 max_features=sqrt(n_features)。如果 “log2”，那么max_features=log2(n_features)。如果没有，那么max_features=n_features 。从1.1版本开始废弃："auto"选项在1.1版本中已经废弃，将在1.3版本中删除。注意：在找到节点样本的至少一个有效分区之前，搜索分割不会停止，即使需要有效地检查超过max_features的特征。

random_state int, RandomState instance or None, default=None

控制估计器的随机性。即使splitter被设置为"best"，特征在每次分割时都会被随机地排列。当max_features < n_features ，时，算法会在每次分割时随机选择max_features，然后在其中找到最佳分割。但是，即使max_features=n_features，在不同的运行中找到的最佳分割也可能不同。这种情况下，如果标准的改进对几个分割是相同的，并且必须随机选择一个分割。为了在拟合过程中获得确定的行为，random_state必须被固定为一个整数。

max_leaf_nodes int, default=None

以最佳优先的方式生长一棵具有max_leaf_nodes的树。最佳节点（Best nodes）被定义为相对减少的杂质。如果没有，则叶子节点的数量不限。

min_impurity_decrease float, default=0.0

如果某个节点分裂引起的杂质（impurity）减少大于或等于这个值，那么该节点将被分裂。

加权的杂质减少方程式（impurity decrease equation）如下：

N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)

其中N是样本总数，N_t是当前节点的样本数，N_t_L是左子的样本数，N_t_R是右子的样本数。

N、N_t、N_t_R和N_t_L都是指加权的总和，如果sample_weight被传递的话。

ccp_alpha non-negative float, default=0.0

用于最小成本-复杂度修剪的复杂度参数。将选择成本复杂度最大且小于ccp_alpha的子树。默认情况下，不进行修剪。

【本文地址】

公司简介

联系我们